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摘 要 : 正确 预测 蛋白 质 折 翅 速率 对 理解 蛋白 质 的 折 营 机 制 非常 重要 。 a i 
的 531 种 残 基 物 理化 学 性 质 、 序 列 长 度 信息 和 局 部 结构 信息 燃 中 短 选 特征 ， 从 而 提出 了 一 
个 基于 和 蛋白质 序列 信息 的 线性 回归 模型 。 针 对 三 种 折 爸 机 制 two-state，multi-state 和 mixed- 
state， 用 Jackknife 验 证 模型 ， 预 测 的 折 县 速率 和 实验 验证 的 折叠 速率 相关 系数 分 别 
为 0.790，0.829 和 0.778。 本 文 结 果 表 明 四 阶 局 部 结构 信息 箭 和 折 玖 速率 有 很 高 的 负 相 关 性 ; 蛋 
白质 的 长 度 和 蛋白质 的 折 驹 速率 成 反比 关系 ; 螺旋 的 含量 会 加 快 蛋 白质 的 折 车 过程。 对 two- 
state 蛋白 质 B 折 奏 的 含量 会 减 慢 蛋白 质 的 折 登 过 程 ， 和 其 他 模型 相 比 ， 我 们 提出 的 线性 回归 模 
型 具有 输入 参数 少 ， 计 算 简单 ， 平 均 绝对 误差 小 的 优点 。 
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1 引言 


蛋白 质 折 二 问题 是 计算 生物 学 和 生物 信息 学 中 的 核心 问题 之 一 刁 。 预 测 蛋 白质 折 登 速率 对 
理解 重 白质 的 折合 机 制 和 分 析 蛋 白质 折 受 的 决定 因素 非常 重要 。 和 蛋白 质 的 折 策 速率 是 用 来 描述 
和 蛋白质 从 变性 状态 恢复 到 天 然 结 构 的 快慢 。 从 实验 角度 观察 蛋白 质 的 折合 分 为 两 种 机 制 ， 一 种 
是 二 态 折 爱 (two-state)， 是 指 蛋 白质 从 变性 状态 到 天 然 结 构 的 过 程 中 不 需要 经 过 中 间 状 态 。 田 
外 一 种 是 多 态 折 合 (multi-state)， 是 指 蛋 白质 从 变性 状态 到 天 然 结 构 的 过 程 中 至 少 经 过 一 种 以 
上 的 中 间 状 态 四 。 通 常 来 讲 ， 二 态 折 受用 来 描述 小 蛋白 的 折 允 机制， 多 态 折 营 用 来 描述 大 体积 
蛋白 的 折合 机 制 。 传 统 的 实验 方法 来 研究 蛋白 质 折 舍 的 方法 有 光谱 ， 质 谱 ， 核 磁 共 振 等 方法 。 
随 着 实验 数据 的 积累 ， 为 我 们 用 数学 模型 来 预测 蛋白 质 折 善 速率 创造 了 条 件 。 

按照 特征 来 分 ， 预 测 蛋 白质 折 辣 模型 可 以 分 为 三 类 ; 第 一 类 ， 三 级 结构 模型 。 通 过 措 
述 蛋 白质 的 拓扑 结构 如 ， 相 对 接触 距 (relative contact order, CO), Kł% fik fE (long-range 
order, LRO), {RAAE (total contact order)! 和 绝对 接触 距 I contact order)l6j 等 利 
用 三 级 结构 的 方法 。 第 二 类 ， 二 级 结构 模型 。 通 过 真实 和 预测 的 a, lit ie & , 
代表 方法 有 二 级 结构 含量 的 方法 (SSC)D， oo 则 的 二 级 结构 来 预测 
HÆRRI., Ivankov 和 Finkelstein 的 有 效 折 登 链 长 度 模 型 ， 通 过 预测 的 二 级 结 meee 效 长 
RE (effective chain length, Leff) 来 预测 蛋白 质 折 肥 速率 ， 近 期 的 工作 还 有 (9 等 等 。 第 三 类 ， 
利用 序列 信息 来 构建 模型 。 如 Gromiha 等 利用 氨基 酸 的 49 种 物理 化 学 属性 来 预测 折 且 速率 ， 
相关 系数 达到 0.93 等 等 。 通 过 分 析 这 些 方法 ， 我 们 发 现 这 些 方法 的 一 个 共同 特点 就 是 都 利用 了 
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和 蛋白质 的 二 级 或 者 三 级 结构 信息 建立 模型 。 虽 然 Gromiha 等 的 方法 在 计算 中 没有 用 到 具体 的 结 
构 信息 ， 但 是 是 建立 在 已 知 蛋 白质 结构 类 型 的 基础 上 进行 预测 的 是 。 

本 文 考虑 从 氨基 酸 的 物理 化 学 性 质 出 发 ， 结 合 序 列 长 度 和 局 部 结构 信息 信 lL， 来 预测 蛋白 
质 的 折 营 速率 。 考 虑 到 二 态 蛋 白 和 多 态 人 蛋白 的 折 驹 机 制 有 很 大 的 差异 ， 我 们 提出 三 个 线性 模型 
分 别 预测 二 态 (two-state)， 多 态 (multi-state) 以 及 混合 态 (mixed-state， 当 我 们 不 知道 蛋白 质 
的 折合 机 制 时 ， 蛋 白质 可 能 属于 二 态 折合 或 者 多 态 折 营 ， 我 们 称 这 种 状态 是 混合 态 ) 的 折 营 速 
率 。 我 们 的 方法 主要 分 为 以 下 几 个 步骤 : 首先 提取 蛋白 质 的 序列 特征 ， 其 次 筛选 出 和 折合 速率 
相关 性 比较 高 的 特征 ， 最 后 利用 线性 回归 模型 建 模 。 


2 ”数据 和 方法 


本 文 用 到 的 数据 集 是 已 被 实验 证 实 的 62 个 继 白 质 的 折 熙 速率 数据 集 ， 该 数据 集 曾 
被 Ivankov 和 Finklstein 使 用 ， 记 为 D62。 该 数据 集 包 括 ，37 个 二 态 蛋 白 和 25 个 多 态 蛋 白 。 
其 中 37 个 二 态 蛋 白 的 平均 长 度 为 88，25 个 多 态 蛋 白 的 平均 长 度 为 143，62 个 蛋白 混合 在 一 起 
的 平均 长 度 为 107。 这 里 的 实验 折 倒 速 率 是 指 实验 观察 数据 的 以 十 为 底 的 对 数 loglo( 产 )。 该 数 
据 集 可 从 网 址 http://mathbio.nankai.edu.cn/jzgao/folding rate_database.htm 下 载 。 

2.1 实验 设计 

本 文 使 用 线性 回归 模型 来 拟 合 实验 数据 。 线 性 回归 方程 表示 为 


N 
y= So wits +C, 
i=l 


EP gH BUR, r 表示 我 们 挑选 的 第 i 个 特征 ，i = 1,--- ne n RASA 
的 特征 个 数 ，w; 表示 第 i 个 特征 zx; 的 回 妇 系 数 ，C 是 线性 模型 中 的 常数 项 。 参 数 wi, C 可 以 用 
最 小 二 乘法 求 出 。 

我 们 利用 Resubstition 和 Jackknife 两 种 方法 来 检验 模型 。Resubstition 是 在 训练 集 的 基础 
上 建立 模型 ， 并 且 用 模型 预测 的 训练 集 的 折 释 速率 。 然 后 计算 预测 的 折合 速率 和 真实 的 折 
登 速 率 的 相关 系数 。 这 个 检验 方法 是 来 验证 所 建立 的 模型 是 否 准确 地 描述 了 训练 集 。 虽 然 这 
个 方法 很 容易 造成 过 拟 合 ， 但 是 先前 描述 的 方法 中 8698,13 都 曾 用 到 过 。 为 了 便于 和 先前 的 
方法 做 比较 ， 我 们 也 采用 了 这 个 检验 方法 。Jackknife 方 法 ， 也 称 留 一 法 。 设 训练 集 有 nn 条 观 
察 数据 ，Jackknife 检 验 用 其 中 n 一 1 条 用 来 建立 模型 ， 剩 下 的 1 条 数据 用 来 检验 模型 ， 这 样 
重复 nn 次 后 ， 得 到 nn 个 预测 数值 ， 然 后 和 真实 数据 计算 相关 系数 。 本 文 即 用 Pearson 相关 系 
数 (PCC, Pearson correlation coefficient)， 平 均 绝 对 值 误 差 (MAE, mean absolute error) 作为 评 
价 指标 ， 其 定义 如 下 
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中 合 有 蛋白 质 的 数目 。9 是 所 有 预测 折合 速 率 的 平均 值 ， 其 定义 为 
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J 是 所 有 真实 折合 速 率 的 平均 值 ， 其 定义 为 


9= Dw 


2.2 ”特征 设计 

AAindex 数据库 03l 记录 了 每 种 氨基 酸 各 种 不 同 的 数值 化 属性 ， 包 括 氨基 酸 的 疏水 性 、 体 积 
和 极 性 等 等 。 我 们 从 AAindex 数 据 库 中 下 载 所 有 的 氨基 酸 物 理化 学 性 质 共 544 种 。 去 除 掉 售 
有 NA 的 数据 (残缺 数据 )， 还 剩 下 531 种 数据 。 这 每 一 条 数据 含有 20 个 数值 ， 分 别 对 应 20 种 所 
基 酸 的 某 种 物理 化 学 性 质 。 这 些 数据 按照 公式 

P; 一 Prin 

Pmax = Poin 
标准 化 到 0 到 1 之 间 。 其 中 已 , PPO 分 别 指 第 i 种 氨基 酸 的 菜 种 物理 化 学 性 质 的 数值 和 标准 化 
后 的 数值 ，Pinsx，Pnmin 分 别 是 指 这 种 物理 化 学 性 质 的 最 大 值 和 最 小 值 。 每 条 蛋白 质 的 物理 化 学 
性 质 用 平均 含量 来 表示 


norm __ 
pporm = 


L 
Pave = > PE/L, 
i=] 
其 中 工 为 蛋白 质 长 度 ，Pk 是 蛋白 质 中 第 i 个 残 基 对 应 的 第 k 个 物理 化 学 性 质 ，k 是 第 上 条 AAi- 
ndex 记录 信息 ,有 = 1,.… ,513, i=1,---, Le 

蛋白 质 的 结构 信息 米 (structural entropy) 是 近 些 年 Chan 等 6 提出 的 。 它 和 蛋白 质 的 热 
稳定 性 有 很 强 的 线性 正 相 关 关 系 。 已 经 应 用 在 蛋白 质 热 稳 定 设计 等 方面 h439。 我 们 分 
别 计 算 每 条 有 蛋白质 的 三 阶 和 四 阶 的 平均 局 部 结构 信息 灶 (local structural entropy, LSE). 
设 蛋 白质 长 度 为 %"， 共 有 n 一 3 个 长 度 为 4 的 片段 ， 计 算 这 n 一 34S) WE EA (LSE) 的 平 
均值 ， 得 到 四 阶 的 平均 信息 焙 。 三 阶 信 息 烂 的 定义 类 似 。 三 阶 ， 四 阶 残 基 片 段 对 应 的 
数值 从 这 个 链接 (http://sdse.life.nctu.edu.tw/index.cgi?xln=download) 下载， 选择 scop-35-3- 
ss.txt 和 scop-35-4-ss.txt 这 两 个 文件 。 更 多 的 局 部 信息 粹 信息 可 以 参考 文献 [11]。 我 们 还 用 
到 和 蛋白质 序 列 长 度 L 和 长 度 的 自然 对 数 In(L) 作 为 特征 。 这 样 我 们 就 为 每 条 和 蛋白质 建 立 一 
个 531 十 2 十 2 = 535 维 的 特征 向 量 。 

2.3 ”特征 选择 

我 们 按照 以 下 三 个 步 又 来 选择 特征 : 

1) ”利用 correlation-based feature subset selection (CFSS)L9 方法 剔除 掉 比 较 弱 的 特征 ; 

2) 分 别 用 向 前 和 向 后 的 方法 来 选择 从 步骤 1 中 得 到 的 特征 ; 

3) 从 步骤 2) 中 选择 相关 系数 中 最 大 的 特征 组 合 。 

CFSS 方法 近年 来 被 成 功 应 用 在 逻辑 回归 中 H3。CFSS 方法 通过 评价 每 个 特征 的 预测 能 力 
给 出 优化 的 特征 子 集 。 我 们 将 建立 好 的 535 个 特征 ， 利 用 CFSS 方法 做 10 折 王 - 交 叉 验证 ， 当 
至 少 有 一 个 fold 的 选择 到 这 个 特征 时 就 保存 该 特征 。 这 样 第 一 步 簿 选 后 对 应 two-state, mulit- 
state 和 mixed-state 的 特征 个 数 分 别 为 37, 432 和 60。 第 二 步 ， 分 别 按照 向 前 的 方法 和 向 后 
的 方法 来 选择 特征 。 向 前 方法 ， 就 是 向 一 个 特征 集合 中 添加 一 个 特征 ， 如 果 该 特征 能 够 
提高 模型 的 相关 系数 ， 就 允许 添加 该 特征 。 模 型 利用 Jackknife 检 验方 法 做 检验 。 计 算 每 
一 个 特征 的 线性 回归 模型 ， 选 择 相关 系数 的 最 高 的 一 个 特征 作为 初始 特征 集合 。 然 后 添 
加 新 的 一 个 特征 如 果 相 关系 数 增加 ， 就 保存 这 个 特征 。 向 后 的 方法 ， 正 好 相反 ， 利 用 所 
有 的 特征 计算 线性 回归 模型 。 如 果 去 除 掉 某 一 个 特征 不 会 减少 模型 的 相关 系数 ， 就 去 除 
掉 该 特征 。 模 型 利用 Jackknife 检 验方 法 检验 。 用 这 两 种 方法 搜索 从 第 一 步 留 下 的 特征 ， 
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最 终 对 应 two-state, mulit-state 和 mixed-state 模 型 的 特征 个 数 分 别 为 6,5 和 6。 所 选 的 特征 
及 描述 如 表 1 所 示 。 我 们 发 现 选取 的 特征 中 都 用 到 了 长 度 和 四 阶 的 局 部 结构 信息 烂 ， 没 有 
用 到 三 阶 的 局 部 结构 信息 粹 。 来 自 AAindex 的 特征 都 是 关于 蛋白 质 结构 相关 的 特征 。 例 
如 Norm_Freq_Beta 是 a/6 类 和 蛋白质 中 G 折 有 规 的 正规 化 后 的 频数 ，Weight-Coil 是 用 移动 窗口 下 
螺旋 的 权重 等 等 。 更 具体 的 特征 描述 ， 可 以 参考 AAindex 数据 库 中 对 应 ID 下 的 描述 。 


表 1: 三 类 线性 回归 模型 选择 的 特征 及 相关 系数 








af BAF 特征 名 称 AAindexID/ 特 征 描述 PCC 
Two-state Norm_Freq-Beta PALJ810109 -0.639 
Ln_L 取 自 然 对 数 后 的 长 度 -0.483 

LSE4 四 阶 局 部 结构 信息 炳 -0.540 

AA_EXT NAKH920103 -0.467 

VDW_Epsilon LEVM760107 0.154 

AL RACS820103 -0.430 

Multi-state L 蛋白 质 序 列 长 度 -0.803 
Aver_Energy OOBM850104 -0.098 

Part_Vol BULH740101 0.107 

Weight _Coil QIAN880131 0.214 

Relative.Mutable DAYM780101 0.026 

Mixed-state Ln_L 取 自 然 对 数 后 的 长 度 -0.677 
Norm.Freq.Beta PALJ810109 -0.497 

LSE4 四 阶 局 部 结构 信息 炳 -0.217 

AA_Mt_protein NAKH900105 -0.167 

Relative_Mutable DAYM780101 -0.012 


Aver-AL RACS820103 -0.156 





3 ”结果 和 讨论 


本 文 预测 蛋白 折 爸 速率 的 模型 基于 三 个 线性 回归 模型 。 如 果 用 户 知道 查询 蛋白 的 折 营 机 
制 ， 就 可 以 分 别 用 二 态 (two-state) 和 多 态 (multi-state) 的 模型 。 如 果 用 户 不 确定 查询 蛋白 的 
折 芭 机制， 可 以 利用 mixed-state 的 线性 模型 。 表 2 是 我 们 得 到 的 在 数据 集 上 分 别 预测 two- 
state, multi-state 和 imixed-state 态 掉 白 折 普 速率 的 线性 回归 模型 。 从 表 2 中 我 们 可 以 看 出 各 
影响 因子 之 间 与 折 状 速率 的 相关 关系 。 我 们 看 到 三 个 回归 模型 中 长 度 跟 折 盖 速率 都 成 负 相 
关 关 系 。 这 和 文献 [9] 中 的 结果 吻合 的 很 好 。 有 蛋白 质 越 大 ， 长 度 越 长 ， 需 要 折 痘 的 时 间 就 越 
Z, HSB. two-state 和 mixed-state 模型 中 ， 我 们 注意 到 四 阶 结构 信息 炉 比 三 阶 
结构 信息 炉 更 有 效 并 且 相 阶 结构 信息 米 和 折 钨 速率 成 负 相 关系 数 。 我 们 知道 结构 信息 入 和 
蛋白 质 的 热 稳 定性 有 很 好 的 正 相 关 关 系 n。 蛋 白质 越 稳 定 ， 需 要 变性 的 温度 Tv 越 高 ， 从 变 
性 状态 到 天 然 结 构 状 态 折 全 的 速度 越 慢 。 在 multistate 模型 中 ， 螺 旋 的 含量 (Weight._Coil) 和 
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折 苔 速率 成 正 相 关 ， 说 明 螺 旋 的 含量 的 增多 会 加 快 蛋 白质 的 折 县 过 程 。 对 于 two-state，68 折 
# (Norm_Freq_Beta) 和 折 登 速率 成 负 相 关 关 系 。 这 说 明 beta-strand 阻碍 了 蛋白 质 的 折 登 过 
程 ， 这 个 与 文献 [10] 的 结论 是 一 致 的 。 


表 2: 有 蛋白质 折 登 速率 预测 模型 





预测 模型 





Two-state 

fold-rate_two=-9.301*Norm_Freq_Beta-1.629*Ln_L-14.819*LSE4-25.016*AA EXT 
-20.773* VDW _Epsilon-4.895* AL+56.684 

Multi-state 

fold-rate_multi=-0.01526*L+16.63188* A ver_Energy+28.29164*Part_Vol 

+18.96604* Weight-Coil+11.91310*Relative_Mutable-33.76155 

Mixed-state 
fold-rate_mixed=-2.303*Ln_L-8.952*Norm_Freq_Beta-11.695LSE4-20.561AA.Mt.Protein 
+18.671*Relative Mutable-7.935A ver-AL+23.444 





如 果 用 Resubstitution 检验 方法 检验 模型 ， 我 们 分 别 利用 two-state，multi-state 和 mixed- 
state 模型 预测 的 折 释 速率 和 真实 折 车 速率 的 PCC 分 别 为 0.855, 0.875 和 0.828。 当 用 Jackknife 
检验 方法 检验 模型 ， 在 two-state 模 型 中 ， 真 实 折 又 速率 和 预测 折合 速率 的 PCC 为 0.790， 
在 multi-state 和 mixed-state 模 型 中 ，PCC 分 别 为 0.829, 0.778。 图 1 是 我 们 用 Jackknife 检 验 
FIERO, MFT BHA two-state, multi-state 和 mixed-state 的 预测 折 肢 速率 和 真实 
的 折合 速率 的 线性 回归 图 。 其 中 ， 三 种 折 有 颂 机 制 的 预测 结果 和 真实 的 折叠 速 率 的 PCC 分 别 
为 0.790, 0.829 和 0.778。 

为 了 检验 我 们 的 模型 预测 的 效果 ， 我 们 的 模型 和 其 他 的 十 种 模型 进行 了 比较 。 这 十 种 模型 
4145 COB), LROM!, TCD®!, ABS-COl!), SSC), Lef, PPFR!, CIH3,K-Foldns 41 QRSMM9) 
表 3 和 表 4 分 别 列 出 了 用 Resubstitution 和 Jackknife 检 验方 法 的 结果 。 用 Resubstitution 的 检 
验方 法 比较 ， 我 们 的 模型 预测 two-state, mulit-state 和 mixed-state 的 折 登 速率 的 相关 系数 分 
别 达 到 0.855, 0.875 和 0.828。 在 用 Jackknife 检验 时 ， 我 们 预测 的 三 种 状态 的 蛋白 质 折 肢 速率 
和 实验 验证 的 折 私 速率 的 的 相关 系数 分 别 为 0.790, 0.829 和 0.778。 从 表 4 中 我 们 可 以 看 到 ， 本 
文 的 模型 的 相关 系数 要 低 于 PPFR 模 型。 但 是 我 们 的 Resubstitution 检验 和 Jackknife 检验 方 
法 预测 结果 的 平均 绝对 误差 (MAE) 分 别 为 0.595 和 0.729。 这 要 比 PPFRI9 方法 在 相同 数据 集 
上 的 Resubstitution 检验 和 Jackknife 检 验 的 平均 绝对 误差 0.88 和 0.93 要 低 。 另 外 ，PPFR 的 
模型 输入 参数 比 本 文 模型 较 多 。 例 如 ，PPFR .用 于 预测 三 种 折 答 态 蛋 白 速 率 模 型 的 参数 分 别 
为 10, 10 和 8， 而 本 文 只 用 到 6,5 和 6。PPFR 模型 还 用 到 PROTEUS[29 和 PSIPREDL23 两 个 
软件 提供 的 预测 的 二 级 结构 信息 。 我 们 的 模型 只 利用 了 序列 的 信息 和 结构 粹 不 需要 额外 的 软件 
支持 ， 模 型 参数 更 少 ， 计 算 更 简单 。 我 们 还 注意 到 QRSM 方法 用 Jackknife 检验 的 结果 也 优 于 
我 们 的 结果 。 分 析 主 要 原因 有 ，QRSM 模型 用 二 次 响应 曲面 来 回归 49 个 特征 ， 它 的 输入 特征 
比 我 们 的 模型 多 ， 另 外 它 的 二 次 响应 曲面 模型 比 线性 回归 模型 更 加 复杂 。 但 QRSM 方法 只 给 
出 了 预测 mixed-state 的 模型 ， 我 们 的 方法 优势 在 于 给 出 不 同 折 蕉 机 制 的 预测 重 白质 折 谷 速率 
的 模型 ， 输 入 特征 都 基于 序列 特征 ， 而 且 输 入 特征 个 数 较 少 ， 模 型 计算 简单 快捷 。 
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表 3 和 表 4 中 部 分 数据 来 自 文献 [110,12]。 表 4 中 的 K-fold 方 法 数据 来 自 文献 [18]， 该 方法 只 
给 了 mixed-state 模型 ， 用 5 倍 交叉 验证 检验 模型 。 


-1 


actual folding rates of two-state proteins 
actual folding rates of multi-state proteins 
actual folding rates of mixed-state proteins 




















012345 -4 -2 oTr2 420 2 4 
predicted folding rates of predicted folding rates of predicted folding rates of 
two-state proteins multi-state proteins mixed—state proteins 


图 1: 本 文 模型 预测 的 折 登 速率 和 真实 折 司 速率 的 线性 回归 图 形 (用 Jackknife 检 验方 法 ) 


表 3: 其 他 预测 模型 的 比较 (Resubstitution 检验 方法 ) 





ar BAL CO ABS-CO LRO TCD SSC Leff Cl PPFR 本文 方 法 





Two-state -0.57 -0.64 -0.79 -0.79 064 -0.61 0.73 0.92 0.855 


Multi-state 0.435 -0.44 -0.34 0.23 -0.01 -0.88 0.70 0.92 0.875 
Mixed-state 0.12 -0.57 -0.61 -0.19 0.42 -0.73 0.72 0.85 0.828 
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表 4: 其 他 预测 模型 的 比较 (Jackknife 检验 方法 ) 











df BML CI K-Fold QRSM PPFR 本 文 方法 
Two-state 0.73 N/A N/A 0.87 0.790 
Multi-state 0.70 N/A N/A 0.87 0.829 
Mixed-state 0.73 0.74 0.89 0.82 0.778 
结论 


我 们 的 方法 针对 三 种 不 同 的 蛋白 质 折 冶 机 制 ， 从 AAindex 数据 库 ， 序 列 长 度 信息 和 结构 信 


RRP TREE, ZRH SS PRM. BAR SH: 


1) JAM fe AME ATR GK, FF OB abs SSE te = Bh Bis 


WG EA 


2) Æ two-state RP, CPB E A RAE A a ae: 
3) HADE (coil) AVS HAE WR A WT BE 
BRA Tee AY FOI TST EE A SLE AT PE APIA BI O.7 以 上 。 和 其 他 模型 相 比 ， 我 们 的 


模型 有 需要 的 参数 较 少 ， 计 算 简单 ， 平 均 绝对 误差 小 的 优点 。 
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Prediction Model of the Protein Folding Rate Using Sequence 
Representation and Local Structural Entropy 


GAO Jian-zhao, HU Gang, WANG Kui, SHEN Shi-yi 


(School of Mathematical Sciences and LPMC, Nankai University, Tianjin 300071) 


Abstract: Prediction of protein folding rates is important in understanding the overall folding the 
mechanism. This article selects the features from 531 physical chemistry properties in the AAindex 
database, the length of proteins and the local structural entropy, and proposes three sequence-based 
linear regression models for two-state, multi-state and mixed-state proteins. The correlation between 
predicted folding rates and experimental folding rates for different folding kinetics is 0.790, 0.829 and 
0.778, respectively. We show that the tetra-local structural entropy is negatively correlated with the 
protein folding rate. Length of protein is negatively correlated with the folding rates. Coil content 
may accelerate the protein folding process and for two-state proteins, the beta-strand content may 
decelerate the folding process. Compared with other models, our proposed method has advantages in 
less features, simple computation and smaller mean absolute errors. 

Keywords: protein folding rates; sequence-based prediction; local structural entropy; linear regression 
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